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摘要 : [目的 /意义 ] 探 索 实 践 以 科技 报告 为 文献 载体 形式 的 融合 主题 模型 的 文本 聚 类 方法 ,拓展 基于 科技 
文献 进行 技术 监测 服务 的 新 领域 ,提出 基于 科技 报告 进行 语义 分 析 的 新 方法 。[ 方 法 /过 程 ] 以 国家 科技 报告 服 
务 系统 中 的 科技 报告 为 数据 源 ,首先 基于 LDA 主题 模型 对 经 过 文本 预 处 理 的 科技 报告 进行 主题 挖 气 , 再 基于 
Ward 与 -means 相 结 合 的 聚 类 算法 对 包含 主题 分 布 信息 的 文本 向 量 进 行 聚 类 分 析 , 尝试 提 出 一 种 适合 科技 报 
告 文档 聚 类 的 文本 挖掘 新 方法 。[ 结果 /结论 ] 实验 结果 表明 ,LDA 主题 模型 能 有 效 准 确 挖掘 科技 报告 中 的 主题 
信息 ,所 提出 的 Ward 与 下-means 相 结合 的 聚 类 算法 对 科技 报告 的 聚 类 效果 也 优 于 其 它 传统 聚 类 算法 。 
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S 忆 科技 报告 作为 科技 文献 的 重要 组 成 部 分 ,是 国家 
基础 性 .战略 性 科技 资源 ,是 国家 科技 实力 的 重要 体 
更 以 为 深入 实施 创新 驱动 发 展 战 略 ,2013 年 科技 部 组 
级 开展 了 科技 部 主管 的 国家 科技 计划 项 目 科 技 报告 制 
度 建 设 工 作 , 标 志 着 国家 对 科技 报告 文献 资源 的 发 展 
租 建设 工作 愈 发 重视 。 于 此 同时 , 相 比 于 传统 科技 期 
剧种 专 利文 献 ,科技 报告 文献 资源 本 身 内 容 翔 实 、 专 
深 $ 包 含 技术 原理 方法、 工艺 和 过 程 , 具 有 重要 的 学 术 
价值 和 实用 价值 ,尤其 在 工程 学 领域 ,科技 报告 能 提供 
关 平 技术 实现 过 程 方法 原理 的 精准 描述 ,在 技术 描述 
的 全 面 性 及 科技 报告 提交 的 实效 性 上 明显 优 于 传统 的 
科技 期 刊 资源 ，。 

我 国 对 科技 报告 相关 研究 的 进度 与 科技 报告 建设 
工作 的 开展 较为 一 致 ,内 容 较 多 是 关于 科技 报告 的 概念 
及 其 体系 和 制度 的 建设 等 理论 层面 的 研究 。 其 中 ,比较 
有 代表 性 的 研究 有 : 侯 人 华 等 针对 科技 报告 的 制度 体系 
与 形成 模式 进行 了 研究 ; 郭 学 武 等 对 开放 科技 报告 服 
务 体系 给 出 了 建议 ”; 毛 刚 等 基于 情报 学 视角 对 科技 报 
告 相关 研究 进行 了 解读 “。 相 较 于 国内 ,国外 发 达 国家 


了 自己 的 科技 报告 平台 “-” ,比如 美国 的 政府 报告 文摘 
题 录 数 据 库 NTIS ,欧洲 灰色 文献 信息 系统 OpenGrey 等 。 
我 国 于 2014 年 3 月 起 正式 开通 运行 国家 科技 报告 服务 
系统 (NSTRS) ,其 截止 到 2017 年 年 初 ,科技 报告 数量 达 
到 8.2 万 余 份 ” 。 该 平台 可 以 利用 科技 报告 文献 资源 
向 社会 提供 检索 浏览 .原文 传递 等 相关 信息 服务 ,公众 
可 以 系统 检索 到 国家 和 地 方 科技 项 目的 各 类 报告 。 由 
此 可 见 , 随 着 近 些 年 科技 报告 数量 的 爆炸 式 攀 升 以 及 路 
学 科研 究 的 不 断交 融 , 对 科技 报告 的 研究 急需 从 现 有 的 
理论 政策 层面 过 渡 到 信息 组 织 、 知 识 挖掘 的 层面 。 因 
此 ,如 何 针 对 海量 科技 报告 文本 中 关于 最 新 的 拉 术 、 原 
理 方法 等 科技 知识 进行 语义 分 析 成 为 现 阶段 科技 报告 
建设 工作 中 县 需 解决 的 一 个 主要 问题 。 

基于 科技 报告 的 聚 类 方法 研究 可 以 生成 内 容 相 似 
的 科技 报告 文档 群 ,在 科技 报告 智能 检索 、 相 关 主 题 推 
送 技术 监测 服务 等 领域 提供 更 好 的 服务 。 笔 者 提出 
一 种 以 科技 报告 为 载体 数据 源 , 基 于 主题 识别 与 聚 类 
方法 相 融 合 的 科技 报告 文档 聚 类 方法 。 这 种 聚 类 方法 
以 经 过 LDA 主题 模型 处 理 后 的 科技 报告 文档 - 主题 
向 量 为 数据 源 , 可 以 深入 到 科技 报告 文档 内 部 的 语义 


比较 重视 科技 报告 的 应 用 价值 ,美国 和 欧洲 都 分 别 建 立 


层面 ,从 主题 的 视角 对 科技 报告 文档 进行 聚 类 研究 。 
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图 二 情报 三 作 


第 62 卷 第 4 期 2018 年 2 月 


产生 | 
ULINDNGAIVDO 1I 


提 于 | 
| 记 避 本 3 


我 国 科技 报告 的 建设 尚 处 于 起 步 阶段 ,因此 ,基于 我 
科技 报告 平台 服务 系统 ,以 现 阶段 我 国 科技 报告 文本 
为 数据 源 ,探讨 其 文本 预 处 理 .主题 识别 及 文档 聚 类 融 
合 的 相关 研究 ,对 促进 现 阶段 科技 报告 的 语义 挖掘 、 推 
动 科技 成 果 的 开放 共享 、 转 化 应 用 及 对 科技 报告 资源 
的 深度 开发 利用 具有 一 定 的 实践 价值 。 


2 相关 理论 


2.1 LDA 主题 模型 理论 
LDA 主题 模型 早期 起 源 于 隐 含 语义 分 析 ( Latent 

Semantic Analysis，LSA) ,之 后 有 学 者 利用 概率 论 与 
数理 统计 的 知识 对 其 进行 改进 ,提出 了 概率 隐 含 语义 
分 析 (Probabilistic Latent Semantic Analysis, PLSA ) 
作为 : LDA 的 雏形 ,PLSA 继承 了 LSA 算法 的 优点 ,并 且 
可 忱 解决 LSA 中 多 义 词 的 问题 ,但 是 其 词 与 主题 之 间 
布 是 固定 的 ,处 理 文档 的 方法 受到 局 限 。2003 年 
ei 等 人 基于 贝 叶 斯 估计 提出 了 隐 含 狄 利克 雷 分 
atent Dirichlet Allocation, LDA)'" ,LDA 由 于 使 
先 验 分 布 , 所 以 待 估算 的 参数 随 之 减少 ,其 处 理 文 
档 酌 方法 更 加 灵活 5 。 

CNJLDA 主题 模型 是 一 种 贝 叶 斯 版 本 的 PLSA 模型 ， 
其 利用 贝 叶 斯 估计 词 分 布 与 主题 分 布 两 个 未 知 参 
疾 WY' ,LDA 主题 模型 有 三 个 结构 层次 :特征 词 层 、 主 
题 亡 和 文档 层 ,其 工作 原理 如 图 1 所 示 ; 
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图 1 LDA 的 原理 模型 


在 图 1 中 ,灰色 圆圈 表示 已 知 量 ,白色 圆圈 表示 未 
知 量 ,黑色 实 线 代表 语 料 层 , 灰色 实 线 代表 文 档 层 , 其 
中 9 是 一 个 主题 向 量 ,向 量 中 的 元 素 表 示 每 一 个 主题 
在 此 文档 中 的 出 现 概率 。p(91a) 为 向 量 9 在 给 定 参数 
a 下 的 概率 分 布 。 黑 色 虚 线 代 表 特 征 词 层 ,z 和 w 分 别 
表示 选取 的 主题 和 特征 词 ,两 者 都 是 特征 词 级 别 的 变 
量 。p(z,10) 为 主题 z, 在 给 定向 量 0 下 的 概率 分 布 ,p 
(w,1z,,B) 为 特征 词 w, 在 给 定 主题 z, 和 参数 B 下 的 概 
率 分 布 。LDA 主题 层 是 模型 的 待 求 结果 ,其 中 a 表示 
文档 中 主题 的 分 布 信息 ,B 表示 主题 中 特征 词 的 分 布 
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信息 ,通过 这 两 者 可 以 推算 出 作者 感 兴趣 的 主题 以 及 
每 篇 文章 中 的 主题 涵盖 比例 。 

LDA 主题 模型 方法 优势 在 于 其 具有 严谨 的 概率 统 
计 理 论 基 础 作为 支撑 ,可 以 通过 以 文档 内 容 中 的 主题 
为 单位 ,针对 大 批量 样本 以 自动 化 的 机 器 处 理 形式 进 
行 粒度 更 细致 的 信息 提取 和 加 工 处 理 。 传 统 的 基于 词 
频 统 计 、 引 文 分 析 、 共 词 分 析 、 内 容 分 析 等 文献 计量 的 
主题 识别 方法 "~ 大 多 停留 在 基于 科技 文献 外 部 特 
征 的 信息 组 织 层面 , 词 与 主题 的 关联 性 及 词 之 间 的 语 
义 关系 无 法 充分 表征 ,无 法 针对 数据 样本 进行 语义 分 
析 。 近 年 LDA 主题 模型 被 较 多 地 应 用 到 期 刊 .专利 等 
传统 科技 文献 的 主题 挖掘 与 演化 等 研究 领域 ”” ,如 
刘 卫 江 在 其 硕士 论文 中 以 国外 科技 报告 为 例 讨论 了 基 
于 主题 层面 的 科技 监测 方法 。 笔 者 将 基于 LDA 模 
型 处 理 后 所 生成 的 文档 - 主题 向 量 作为 科技 报告 文档 
聚 类 的 输入 数据 源 , 可 以 深入 到 科技 报告 文本 的 语义 
层面 ,从 主题 的 视角 对 科技 报告 文本 内 容 进行 服务 粒 
度 更 加 细 化 的 挖掘 。 
2.2 基于 Ward 与 K-means 相 结 合 的 文本 聚 类 算法 

由 于 科技 报告 文档 数据 量 较 大 ,经 LDA 模型 对 文 
档 集 进行 处 理 后 ,所 提取 主题 的 数量 也 较 多 ,并且 不 同 
科技 报告 文档 可 能 出 现 主题 分 布 概率 相近 所 导致 的 研 
究 内 容 相似 等 问题 。 因 此 ,在 对 科技 报告 的 主题 进行 
挖掘 处 理 之 后 ,将 具有 相似 主题 的 科技 报告 文本 再 次 
聚 类 ,可 以 更 好 地 在 语义 层面 实现 科技 报告 的 检索 \ 推 
送 等 知识 服务 。 

传统 的 人 -means 算法 是 一 种 经 典 划 分 式 聚 类 算 
法 ,其 基本 原理 是 通过 自行 选取 天 个 文档 (主题 概率 
分 布 向 量 , 下 文 简称 为 数据 点 ) 作为 聚 类 的 初始 划分 
点 ,分 别 计算 剩余 数据 点 到 K, 个 划分 点 的 距离 ,每 个 
数据 点 与 .个 划分 点 中 距离 最 近 的 划分 为 一 类 ,通过 
计算 每 类 中 数据 点 的 平均 值 来 更 新 类 中 划分 点 的 值 ， 
重复 操作 直到 划分 点 稳定 不 变 为 止 。 可 见 K-means 聚 
类 算法 的 缺点 是 天 . 的 数目 和 初始 数据 划分 点 都 要 用 
户 自 行 确定 ,而 其 初始 参数 设 定 的 不 合理 和 主观 性 很 
可 能 增加 算法 的 时 间 复 杂 度 ,降低 其 聚 类 结果 的 精度 。 
Ward 算法 ”能 很 好 地 弥补 和 -means 算法 的 缺点 , 它 是 
一 种 自 下 而 上 的 凝聚 层次 式 聚 类 算法 ,通过 把 每 一 个 
数据 点 作为 一 个 初始 类 ,把 距离 最 近 的 两 个 类 进行 合 
并 ,合并 后 重新 计算 类 间 的 距离 ” ,重复 操作 直到 类 
的 总 数 等 于 1 或 者 满足 预先 设 定 的 终止 条 件 为 止 。 
Ward 算法 能 够 自动 确定 分 类 的 数量 以 及 每 个 类 的 均 
值 ,这 两 个 数值 可 以 作为 k-means 算法 中 初始 类 的 数 
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量 K。 和 初始 K, 个 划分 点 的 值 , 从 而 避免 了 K-means 算 
法 中 人 为 设 定 这 两 个 参数 的 主观 性 ,提升 了 准确 性 及 
自动 化 程度 。 

此 ,笔者 基于 Ward 法 与 K-means 法 相 结合 的 文 
本 眼 类 算法 ,对 经 过 LDA 主题 模型 处 理 后 的 科技 报告 
主题 概率 分 布 文档 进行 聚 类 分 析 ,经 实验 可 以 更 好 地 
为 科研 人 员 提 供 有 关 该 研究 领域 的 相关 研究 主题 的 科 
技 报告 文档 。 


3 ”基于 LDA 模型 的 科技 报告 文本 聚 类 


方法 设计 


基于 LDA 模型 的 科技 报告 文本 聚 类 方法 处 理 流 
程 主要 为 以 下 三 个 关键 步 又 :中 科技 报告 数据 的 预 处 
理 7@) 基 于 LDA 模型 的 科技 报告 主题 识别 方法 设计 ; 


p> | 


文档 聚 类 方法 设计 。 具 体 如 图 2 所 示 ; 


基于 LDA 的 科技 基于 Ward 与 
报告 主题 提取 So 
条 和 特征 己 科技 报告 类 
矩阵 
| 襟 类 算法 设计 
和 迭代 推算 参数 
| 这 类 效果 评价 
词 频 统计 和 Ee 
竺 征 词 选 取 输出 主题 矩阵 


3K 科技 报告 文本 预 处 理 
己 数 据 预 处 理 是 进行 文本 挖掘 和 主题 识别 的 前 期 基 
础 性 工作 ,通过 对 科技 报告 原始 文本 数据 的 预 处 理 过 
各 (使 其 标准 化 ,结构 化 从 而 适合 作为 机 器 自动 化 处 理 
的 LDA 模型 的 输入 ,科技 报告 文本 预 处 理 结果 的 优 劣 
直接 决定 着 对 其 进行 主题 分 析 与 文本 聚 类 的 结果 优 
劣 。 科 技 报告 文本 数据 预 处 理 过 程 如 图 2 所 示 , 主要 
包括 三 部 分 :对 科技 报告 文本 数据 的 采集 、 对 采集 后 的 
文本 数据 进行 分 词 处 理 . 对 分 词 结果 进行 词 频 统计 并 
最 终 保留 最 具 标识 性 的 文本 特征 词 。 
3.1.1 科技 报告 数据 采集 ”科技 报告 是 科研 工作 者 
按照 规定 的 标准 格式 记录 其 从 事 的 调查 ,研究 ,设计 、 
实验 和 分 析 等 科研 工作 的 特殊 文献 。 由 于 科技 报告 的 
内 容 专业 ` 深 入 .详细 ,并 且 附 有 图 表 、 研 究 方案 、 实 验 
数据 ,所 以 能 有 效 地 体现 该 科研 活动 的 各 种 信息 ,我 国 
科技 报告 的 组 成 见 表 1 。 

科技 报告 的 说 明 信 息 主要 分 布 在 其 前 置 部 分 ,] 
中 的 核心 是 科技 报告 的 摘要 部 分 。 科 技 报告 的 摘要 作 
为 其 内 容 提要 ,是 科技 报告 的 重要 构成 ,是 报告 全 文 的 


/证 


表 1 我 国 科技 报告 的 组 成 


构成 部 分 作 状态 

前 置 部 分 封面 提供 描述 性 元 数据 信息 可 选 
封 二 提供 权限 等 管理 元 数据 可 选 

题名 页 提供 描述 性 信息 必 备 

辑 要 页 提供 描述 及 管理 元 数据 可 选 

前 言 是 供 描述 元 数据 可 选 

摘要 提供 描述 元 数据 信息 必 备 

关键 词 是 供 结构 元 数据 必 备 

目次 是 供 结构 元 数据 必 备 

插图 附 表 清单 提供 结构 元 数据 可 选 

符号 说 明 提供 结构 元 数据 可 选 

正文 部 分 引言 部 分 内 容 必 备 
主体 部 分 内 容 必 备 

结论 部 分 内 容 必 备 

建议 部 分 内 容 可 选 

参考 文献 结构 元 数据 必 备 

后 置 部 分 附录 结构 元 数据 必 备 
索引 结构 元 数据 可 选 

发 行列 表 管理 元 数据 可 选 

封底 提供 描述 元 数据 信息 可 选 


高 度 提炼 。 由 于 目前 科技 报告 正文 文本 数据 公开 权限 
的 限制 ,笔者 选择 采集 科技 报告 摘要 部 分 作为 LDA 主 
题 模型 所 需 的 语料库 输入 ,通过 前 期 实验 证 实 以 此 作 
为 输入 语 料 ,主题 挖掘 效果 较 好 ,主题 的 语义 边界 较 清 
晰 。 

3.1.2 科技 报告 文本 分 词 处 理 ”通过 对 科技 报告 摘 
要 的 文本 采集 所 构建 的 语料库 不 能 直接 作为 LDA 模 
型 的 输入 数据 ,其 中 的 无 效 干扰 词汇 过 多 ,维度 过 高 ， 
增加 了 计算 成 本 ,影响 输出 结果 的 准确 性 。 因 此 ,首先 
需要 对 初始 语料库 进行 分 词 处 理 ,分 词 处 理 包括 两 部 
分 内 容 :中 将 连续 的 汉字 序列 通过 分 词 算法 切割 成 单 
独 的 词 ;@ 根 据 停 用 词 表 去 掉 数 量词 .副词 .介词 、 连 
词 .助词 等 干扰 词汇 。 分 词 处 理 后 得 到 的 数据 中 每 一 
行 的 词 分 别 对 应 一 篇 摘要 文档 ,数据 的 行 数 等 于 科技 
报告 文档 的 篇 数 ,分 词 处 理 就 是 把 文档 集 按照 一 定 的 
规则 简化 成 数 行 词 袋 化 的 词 向 量 的 过 程 。 目 前 中 文 分 
词 方法 可 分 为 :理解 分 词法 .词典 分 词法 和 统计 分 词 
法 1。 其 中 ,利用 统计 分 词 算法 设计 的 分 词 系统 比较 
常用 ,具有 代表 性 的 工具 有 :支持 多 种 编程 语言 的 Jie- 
ba 中 文 分词 库 .汉语 词法 分 析 系 统 ( NLPIRAICT- 
CLAS) 在 汉语 词法 分 析 系 统 的 基础 上 通过 优化 算法 
和 数据 结构 而 编写 的 Ansj 中 文 分 词 咒 。 由 于 Jieba 中 
文 分 词 库 的 开源 性 和 灵活 性 ,笔者 采用 其 对 科技 报告 
原始 语料库 进行 分 词 。 同 时 结合 科技 报告 的 特点 ,在 
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中 文 常用 停 用 词 表 中 加 入 “技术 “研究 ”“ 
汇 以 进行 去 停 用 词 处 理 。 

3.1.3 科技 报告 词 频 统 计 和 特征 词 选取 经 过 分 词 
处 理 后 的 原始 语 料 的 维度 得 到 了 初步 的 降低 ,但 词 向 
量 结果 集中 的 无 效 词 仍 然 较 多 ,需要 进一步 通过 词 频 
统计 及 特征 词 的 选取 实现 主题 模型 的 标准 输入 。 词 频 
统计 是 通过 对 某 一 词语 在 一 定 范围 的 文档 中 出 现 次 数 
进行 统计 、 整 理 、 分 析 而 得 出 关于 该 词语 出 现 概率 、 分 


算法 "等 词 


布 范围 等 规律 的 一 种 统计 方法 。 设 定 无 效 词 具备 以 下 
特征 : 词 频 统 计 结 果 高 于 某 一 指定 较 高 阔 值 的 意义 空 


虚 的 无 效 词 ; 词 频 统计 结果 低 于 某 一 指定 较 低 阔 值 的 
具有 “长 尾 特征 ”的 无 效 词 。 通 过 词 频 统计 处 理 后 所 
选取 的 特征 词 构成 了 表征 科技 报告 文本 数据 主要 特征 
A 特征 词 矩 阵 ,作为 LDA 
扣 是 模型 的 有 效 数据 输入 。 

3@D 基于 LDA 模型 的 科技 报告 主题 识别 方法 设计 
CO 经 过 科技 报告 文本 数据 预 处 理 所 得 到 的 “文档 
- 枉 征 词 算 阵 "作为 LDA 主题 模型 的 输入 数据 。 和 矩阵 
电 移 一行 对 应 科技 报告 的 一 篇 摘要 文档 ; 列 对 应 文档 


中 网 特 和 E 词 ;矩阵 的 行 数 即 为 文档 数 M, 列 数 即 为 第 
当中 的 特征 词 数 ,LDA ae 

Da 所 示 : 

《 ON 

> Wi Wy, 

>< : 

[a 

CS Wi NM， 

OO 


ee 图 3 LDA 输入 数据 结构 


LDA 主题 模型 的 核心 是 对 参数 9, 和 gp; 的 估算 ， 
9, 和 gp 分 别 表示 第 m 个 文档 中 的 主题 概率 分 布 和 第 
有 个 主题 中 的 特征 词 概率 分 布 ,两 者 分 别 是 服从 超 参 
数 a 和 8B 的 犹 利 克 雷 的 先 验 分 布 ,其 中 0, 和 gy; 是 初 
始 自 定义 的 。 目 前 ,对 参数 和 有 两 种 常用 的 算法 : 
Gibbs 采样 算法 和 EM 算法。 笔者 使 用 Gibbs 采样 算法 
对 参数 进行 估算 ,因为 该 算法 对 处 理 文中 长 文本 有 一 
定 的 优势 ,而 且 其 空间 复杂 度 和 时 间 复 杂 度 都 较 低 。 

Gibbs 采样 算法 参数 估算 过 程 如 下 : 

(1) 计 算 求 得 特征 词 - 主题 的 联合 概率 分 布 : 

plw,zla,B) =p(wlz,w)p(zla) 式 (1) 

(2) 根 据 狄 利克 雷 先 验 与 贝 叶 斯 法 则 ,推算 出 狄 
利克 雷 分 布 期 望 为 : 
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Og =( 式 (2) 


pus = (nl +B)/( nl +p,) 式 (3) 

式 (2) 和 (3) 中 9,; 为 在 文档 mm 中 主题 4 的 概率 ， 
gi 为 在 主题 中 特征 词 1 的 概率 ,nt 为 在 文档 由 中 
属于 主题 的 特征 词 的 数量 ,ms” 为 特征 词 + 属 于 主题 
的 次 数 。V 表示 不 同 特征 词 的 数量 ,K 为 潜在 主题 
数 。 

(3) 通 过 Gibbs 采样 算法 近似 得 出 特征 词 - 主题 
和 主题 -文档 的 联合 概率 分 布 : 


天 2 
nt Fo CS a 


Pp(z; =klz,;,wW) cc 天 式 (4) 


式 (4) 对 应 着 一 
概率 ,其 中 路 径 


未 : 


条 从 文档 到 主题 到 寺 征 词 的 路 径 
的 条 数 等 于 主题 的 个 数 K, 如 图 4 所 


图 4 Gibbs 采样 路 径 


Gibbs 采样 就 是 在 这 天 条 路 径 中 进行 的 ,在 推算 出 
超 参数 c 和 B66 后 验 分 布 的 同时 ,也 得 到 了 主题 分 布 0， 
和 特征 词 分 布 p, 这 两 个 参数 。 

LDA 主题 模型 处 理 后 得 到 的 输出 结果 为 超 参 数 a 
和 有 的 后 验 估计 和 隐 含 参数 0 和 gg。a 表示 为 在 一 篇 
科技 报告 文档 摘要 中 ,由 所 有 未 知 主题 生成 概率 所 构 
成 的 天 维 向 量 (天 为 主题 数量 ) ;B 表示 科技 报告 文档 
摘要 中 每 个 特征 词 在 每 个 主题 中 的 生成 概率 ,为 一 个 
VxK 和 矩阵 (VV 为 不 同 特征 词 数 量 ) ;9 为 一 个 表示 每 个 

主题 在 每 个 科技 报告 摘要 文档 中 生成 概率 的 屠 xK 甜 
阵 (W 为 科技 报告 数量 ) ;a 为 一 个 表示 指定 科技 报告 
摘要 文档 中 每 个 特征 词 在 每 个 主题 中 生成 概率 的 Vx 
天 和 矩阵 。 

3.3 基于 Ward 与 K-means 的 科技 报告 文档 聚 类 模 
型 设计 

利用 基于 Ward 与 K -means 的 聚 类 算法 对 经 过 
LDA 模型 处 理 后 的 科技 报告 文档 进行 再 次 聚 类 , 以 获 
得 更 准确 有 效 的 基于 科技 报告 文档 分 类 处 理 。 

聚 类 算法 具体 流程 如 下 :对 上 文 经 过 主题 模型 处 
理 后 的 每 个 科技 报告 摘要 文档 ,用 它 所 对 应 的 主题 概 


ChinaXiv 合 作 期 刊 


曲靖 野 ， 陈 震 ， 郑 谓 宁 . 基于 主题 模型 的 科技 报告 文档 聚 类 方法 研究 [J]. 图 书 情报 工作 ,2018 ,62(4) :113 - 120. 


率 向 量 9=[p. ,p. ,，…D-] 来 表示 ;用 Ward 算法 对 LDA 
主题 模型 挖掘 出 的 带 有 主题 概率 分 布 的 文档 向 量 集 进 
行 第 一 次 聚 类 ; Ward 算法 所 确定 类 的 数量 K, 以 及 每 
个 类 中 的 均值 作为 k-means 算法 的 两 个 初始 条 件 ; 利 
用 已 确定 初始 条 件 的 K-means 算法 对 文档 向 量 集 进行 
第 二 次 聚 类 ,得 到 科技 报告 按照 其 所 属 主题 概率 分 布 
的 聚 类 结 
3.4 评价 方法 
3.4.1 基于 LDA 模型 的 科技 报告 主题 提取 效果 评价 
笔者 采用 文献 [20] 中 使 用 的 查 准 率 、 查 全 率 、 值 对 
LDA 模型 主题 提取 效果 进行 评价 。 查 准 率 与 查 全 率 是 
判断 数据 挖掘 结果 优 劣 的 两 个 重要 度量 指标 ,在 信息 
科学 领域 被 广泛 应 用 。 查 准 率 是 指 挖掘 出 的 正确 信息 
上 岂 控 气 出 的 有 效 信息 的 比例 , 查 全 率 是 指 挖 掘 出 的 正 
襄 息 占 数据 源 中 实际 存在 的 正确 信息 的 比例 。 两 者 


人 表示 如 下 : 
2 P=N/N, 式 (5) 
SS R=N/N, 式 (6) 


0D 在 式 (5) 中 ,P 表示 查 准 率 ,NN, 表示 LDA 模型 提取 
的 3B 确 主题 数 ,NN, 表示 LDA 模型 提取 的 有 效 主题 数 ; 
ES(6) 中 ,R 表示 查 全 率 ,Nu 表示 文档 集中 实际 存在 
的 明确 主题 数 。N。N,，、Nn 的 值 由 项 目 组 成 员 分 两 组 
狂潮 设 定 , 当 两 组 结果 不 一 致 时 再 由 相关 领域 专家 以 
< 在 准 率 与 在 全 率 也 存在 局 限 性 ,两 者 有 着 相反 的 
关系 ,过 高 的 查 准 率 也 会 导致 可 全 率 降低 ,反之 亦 
然 所 以 引入 下 值 来 调和 奋 准 率 与 查 全 率 的 对 立 关系 ， 
下 侦 的 表达 式 如 下 : 
F=2PR/(P+R) 式 (7) 
3.4.2 基于 Ward 与 -means 的 科技 报告 文本 聚 类 效 


果 评 价 ”笔者 采用 聚 类 算法 得 出 的 总 荆 值 评 价 算法 聚 
类 效果 ,总 正 值 等 于 每 个 聚 类 下 值 的 加 权 平均 ,如 
下 所 示 : 
SNF 
Fi = 一 式 (8) 
ZN 


在 式 (8) 中 ,Fi 为 总 下 值 ,K, 为 聚 类 类 数 ,为 某 
个 聚 类 ,w, 为 归 类 i 中 对 象 数 量 ,FF 为 聚 类 i 的 F 值 ， 
ww 值 越 高 说 明 算 法 的 聚 类 效果 越 好 。 


4 实验 流程 与 实验 结果 分 析 
4.1 实验 流程 
实验 是 在 Windows 7 系统 环境 下 进行 ,计算 机 硬 


件 CPU 为 Intel i5 2.5GHz、 内 存 4G。 中 文 分 词 .特征 词 
提取 及 LDA 建 模 分 析 采 用 的 软件 是 Python 3.6.0, 文 
本 聚 类 算法 采用 的 软件 是 Matlab 2012b。 

笔者 以 国家 科技 报告 服务 系统 http://www. nstrs. 
cn/ 中 2013 年 到 2017 年 间 与 数字 图 像 处 理 有 关 的 科 
技 报告 为 分 析 数 据 源 ,检索 后 经 人 工 筛选 到 相关 报告 
1 842 篇 。 调 用 Python 3.6.0 中 的 Jieba 库 对 采集 的 中 
文摘 要 进行 分 词 处 理 ,选取 词 频 在 95 到 40 之 间 的 特 
征 词 (126 365 个 ) 作为 有 效 词 构建 特征 词 表 。 特 征 词 
表 用 input. txt(1 842 行 ) 来 存储 ,并 作为 LDA 模型 的 
输入 文件 。 在 Python 3. 6. 0 中 使 用 主题 模型 工具 包 
Gensim 中 的 LdaModel 函数 来 计算 “文档 - 主题 分 布 ” 
和 “主题 - 特征 词 ” 分 布 。 在 Matlab 2012b 中 ,利用 其 
自 带 的 聚 类 函数 工具 包 对 1 842 个 包含 主题 信息 的 摘 
要 文本 向 量 进行 聚 类 。 
4.2 实验 结果 分 析 

笔者 根据 文献 设 定 超 参数 a 和 8B 的 初始 值 分 
别 为 0.01 和 1, 主 题 数 K 的 数值 根据 数据 模型 的 困惑 
度 确定 为 42” 。LDA 模型 处 理 后 得 到 特征 词 在 42 个 
潜在 主题 中 的 概率 分 布 以 及 这 42 个 潜在 主题 在 1 842 
篇 科技 报告 中 文摘 要 中 的 概率 分 布 。 由 于 篇 幅 有 限 ， 
笔者 只 列 出 其 中 15 个 主题 中 前 5 个 特征 词 概率 分 布 
与 其 中 5 个 文档 中 主题 的 概率 分 布 ,如 图 5 和 图 6 所 


个 : 

(0，” 0. 020*“ 分 割 ”+ 0. 009x*“ 识 别 ”+ 0. 007x*“ 区 域 ”- 0. 006*” 检 测 ”- 0. 006*“ 边 缘 ” 
(1, “0. 016#“ 和 鲁 棒 ”+ 0.012x*” 水 印 ”+ 0.012*” 小 波 ”- 0. 012*” 信 息 ”+ 0. 009*” 离 散 
(2，’ 0.012*“ 测 量 ”+ 0. 012*“ 距 离 ”+ 0. 011#“ 遥 感 ”+ 0. 009*“ 系 统 ”+ 0. 008*” 参数 
(3 作 中 0. 007*“ 提 取 ”+ 0. 007*“ 差 异 ”-+ 0. 007*” 边 缘 ” 
(4, *" 特 0. 006x*“ 向 量 ”- 0. 006*“ 人 信息” 0. 006#“ 检 测 
(5， 0. 006#" 模 糊 ″” + 0. 006#“ 退 化 ”* 0. 005*” 物 理 
(6, 0. 007x*“ 脉 串 ”+ 0. 006*“CCD”- 0. 005x*” 去 噪 ” 
7 0. 008*” 系数”-+ 0.007*“ 分 辩 率 ”- 0. 006#“ 规则” 
(8, *" 分 辨 率 ”+ 0.005*” 向量 ”- 0.005*” 红 外 

00 


轨 0. 006* 
0. 006* 


站 ”+ 0. 007#“ 存 储 ^″- 0. 006*“ 编 码 ”- 0. 006*“ 小 波 ”- 0. 006*” 容 量 “ 
(14，’ 0. 012*” 配 准 ”-+ 0. 008*” 模 型 ”+ 0. 008*” 分 辨 率 ”+ 0. 007*” 像 素 ”+ 0. 005*” 信 息 ” 


5 15 个 主题 中 前 5 个 特征 词 概率 分 布 


[(2，0. 30605443968829327)， (14，0. 68238998519589866) , ] 
[(11，0. 37219477937739726) ， (12，0. 61806736742224555)] 
[(7，0. 98703701423316437) ] 

[(13，0. 98847735155914229) ] 

[(0，0. 52672407762458129)， (3，0. 45994255135627699) ] 


6 5 个 文档 中 主题 的 概率 分 布 


从 每 个 主题 中 的 特征 词 可 以 推断 出 这 15 个 主题 
对 应 着 数字 图 像 处 理 各 个 研究 方向 :图 像 分 割 .图 像 水 
印 ` 图 像 测绘 .目标 检测 ,特征 提取 、 图 像 复原 激光 图 
像 图像 重 构 图像 融 合 . 人 工 智能 .目标 追踪 、 三 维 图 
像 .医学 图 像 .图 像 压缩 图像 配 准 。 主 题 之 中 有 部 分 
重复 特征 词 ,但 是 各 个 主题 之 间 的 边界 基本 清晰 ,在 主 
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题 标签 的 确定 过 程 中 ,也 咨询 了 相关 领域 的 专家 予以 
确认 。 

从 5 个 文档 的 主题 分 布 中 可 以 得 出 ,它们 所 包含 
的 主题 分 别 为 :图 像 测 绘 和 图 像 配 准 三 维 图 像 和 医学 
图 像 .图 像 重 构 、 图 像 压缩 图 像 分 割 和 图 像 检 测 。 而 
这 5 篇 科技 报告 的 题目 分 别 为 :基于 亮度 序 和 图 模型 
的 多 源 遥 感 图 像 配 准 算 法 研究 、 现 代 医 学 成 像 与 高 维 
图 像 分 析 关 键 科学 问题 研究 .基于 结构 先 验 约束 的 
PET 图 像 重 建 研 究 .基于 Grouplet 变换 的 SAR 图 像 压 
缩 感 知 编码 `. 基 于 四 元 数 的 彩色 图 像 边缘 检测 和 分 制 
方法 研究 。 所 以 LDA 模型 得 到 的 文档 主题 分 布 信息 
能 够 准确 反映 各 个 文档 的 研究 内 容 。 

为 了 证 明 LDA 主题 模型 处 理科 技 报告 的 有 效 性 ， 
笔 大 选取 共 词 分 析 模 型 和 PLSA 模型 与 之 进行 对 比 。 
采 表 后 两 种 模型 分 别 对 特征 词 表 input. txt(1 842 行 ) 
进行 处 理 , 三 种 对 比 模型 所 得 到 的 查 准 率 、 查 全 率 、 值 


旭 表 2 所 示 : 
不 同 模型 对 科技 报告 主题 提取 的 查 准 率 、 查 全 率 、F 值 
区 模 型 。 凡 N, Na 
CD 41 37 43 
分 析 37 30 43 
SA 40 34 43 


查 准 率 ” 查 全 率 ”下 值 
90.24% 86.05% 88.10% 


81.08% 69.77% 75.00% 
85.00% 79.07% 81.93% 


WW 表 2 中 的 实验 结果 来 看 ,LDA 模型 主题 提取 的 
率 . 在 全 率 .F 值 都 比较 高 , PLSA 模型 次 之 , 共 词 
信托 模型 效果 最 差 。 可 见 主题 模型 相对 于 现 有 的 主题 
识别 方 法 ,更 加 适合 对 科技 报告 文本 的 处 理 。 
-三 这 主要 是 由 科技 报告 文本 自身 的 特点 以 及 LDA 
本 一 本 身 的 特性 二 者 共同 决定 的 。 从 科技 报告 数据 对 
象 本 身 特点 来 看 ;相对 于 科技 期 刊 等 其 它 科 技 文献 , 科 
技 报告 受 篇 幅 限 制 较 小 ,其 对 研究 问题 的 阐述 更 加 详 
细 全 面 ,话题 内 容 范围 广 ,相应 导致 基于 其 所 提取 的 研 
完 主 题 粒度 更 细 ,数量 更 多 。 从 处 理 模型 的 角度 来 看 ; 
首先 , 共 词 分 析 方法 只 进行 一 次 聚 类 运算 来 获得 关于 
由 关键 词类 艇 所 描述 的 主题 ,而 主题 模型 多 次 迄 代 的 
运行 过 程 会 导致 特征 词 和 主题 的 概率 在 学 习 变化 中 赵 
于 稳定 ,这 种 算法 原理 导致 的 差别 会 降低 共 词 分 析 模 
型 所 提取 主题 中 有 效 主题 的 数量 ( 仅 为 37) 。 其 次 , 共 
词 分 析 模 型 中 一 个 特征 词 只 能 对 应 一 个 主题 ,而 主题 
模型 中 特征 词 以 不 同 概率 分 属于 不 同 主题 ,这 也 导致 
共 词 分 析 模型 所 提取 的 正确 主题 数量 较 低 ( 仅 为 30) 。 
以 上 可 能 是 导致 共 词 分 析 结 果 差 于 LDA 模型 和 PLSA 
模型 运行 效果 的 主要 原因 。 再 次 , 相 比 于 PLSA 模型 ， 
LDA 模型 中 主题 - 特征 词 分 布 是 可 变 的 ,而 PLSA 模 
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型 中 主题 - 特征 词 分 布 是 固定 的 ,因此 LDA 的 处 理 结 
果 优 于 PLSA。 

根据 上 文 所 确定 的 42 个 主题 数 ,将 每 篇 科技 报告 
摘要 文档 按照 其 最 高 的 主题 概率 划分 为 42 类 ,其 分 类 
所 得 结果 如 图 7 所 示 : 


Pe S NL a ooo RY A A oH 
= S Dee 3 DA wn do 
eT 


7 基于 LDA 主题 模型 的 文档 分 类 效果 


在 图 7 中 ,每 个 数据 点 表示 一 篇 科技 报告 文档 , 相 
同 颜色 的 数据 点 代表 具有 相同 的 最 高 概率 主题 的 文 
档 ,这 样 的 科技 报告 被 认为 是 关于 同一 主题 的 文档 ,被 
划分 为 一 类 。 由 图 7 可 见 ,同类 别 的 科技 报告 数据 点 
分 散 化 严重 ,因此 单纯 按照 LDA 主题 模型 处 理 后 的 文 
档 分 类 效果 不 理想 。 

使 用 笔者 提出 的 Ward 法 与 K-means 法 相 结 合 的 
聚 类 算法 对 这 1842 个 文档 进行 聚 类 ,得 到 聚 类 效果 图 
如 图 8 所 示 : 


8 本文 算 法 聚 类 效果 


图 8 表明 通过 Ward 法 所 确定 的 聚 类 类 数 为 15 , 比 
之 前 主题 数 42 要 少 很 多 ,这 是 因为 这 42 个 主题 中 有 
些 主题 研究 方向 相似 ,如 运动 视觉 和 目标 追踪 都 属于 
机 器 视觉 的 研究 方向 。Ward 法 最 终 将 1 842 个 文档 按 
照 主题 标签 聚 类 成 15 个 研究 方向 ,K-means 法 再 将 每 
篇 科技 报告 文档 案 类 到 最 相近 的 研究 方向 中 。 从 以 上 
处 理 结果 可 见 ,笔者 所 设计 的 基于 主题 模型 和 聚 类 算 
法 融合 的 科技 报告 文本 分 类 方法 ,可 以 起 到 清晰 有 效 
划分 文档 控 据 主题 的 效果 。 

进一步 从 定量 角度 证 明 本 文 算法 所 实现 聚 类 效果 
的 准确 性 ,把 笔者 提出 的 算法 与 单独 使 用 K-means 法 
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题 模型 的 科技 报告 文档 聚 类 方法 研究 [J]. 图 书 情报 工作 ,2018 ,62(4) :113 - 120. 


和 Ward 法 的 聚 类 结果 的 总 值 进行 比较 。K -means 
法 的 取 值 设 定 为 11 到 19 ,笔者 提出 的 算法 和 Ward 法 
的 取 值 由 Ward 法 自动 确定 。 三 种 算法 的 总 下 值 如 图 
9 所 示 : 


YA 
08 
回 
芝 06 
已 
江 0.4 
0.2 
0 - = 
Wm a ey Ma MS 6 "I Wy 
K. 值 
em 中 = KK-means 方法 
一 图 一 Ward 方 法 
本 文 方法 
图 9 三 种 聚 类 算法 结果 总 值 比较 
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[图 9 表明 当天 为 15 时 本 文 聚 类 算法 与 k-means 
聚 交 算法 总 下 值 最 高 并 且 相 同 ,天 不 等 于 15 时 下- 
mE 双 :到 类 算法 总 值 就 会 减少 ,表明 其 聚 类 效果 降 
低 这 进一步 证 明 采 用 Ward 法 确定 天 可 提高 聚 类 效 
于 本文 聚 类 算法 引入 Ward 法 的 合理 性 。 当 天 为 
1 了 ,Wand 法 来 类 总 值 低 于 另外 两 种 算法 ,这 表明 
三 的 Ward 法 确定 的 天 是 正确 的 ,但 是 该 方法 没有 再 
俩 请-means 聚 类 使 每 篇 科技 报告 都 正确 聚 类 到 每 一 
类 刘 , 这 导致 了 其 聚 类 效果 低 于 另外 两 种 聚 类 算法 在 
有 胃 15 时 的 聚 类 效果 。 因 此 ,笔者 提出 的 基于 Ward 
与 臣 means 的 聚 类 算法 是 有 效 的 。 


”科技 报告 是 国家 科技 实力 与 科技 发 展 水 平 的 重要 
体现 ,针对 其 关注 度 不 充分 的 问题 ,笔者 以 国家 科技 报 
告 服务 平台 为 数据 来 源 构建 语料库 ,对 其 开展 主题 提 


取 的 实证 研究 ,开辟 了 科技 报告 应 用 研究 的 新 领域 。 
基于 LDA 主题 模型 对 科技 报告 文本 进行 主题 挖掘 ,将 
生成 的 科技 报告 的 文档 - 主题 向 量 集 作 为 聚 类 算法 的 
输入 ,融合 Ward 与 K-means 算法 对 科技 报告 文档 进行 
聚 类 ,并 通过 实证 分 析 证 明了 笔者 所 设计 的 科技 报告 
文档 聚 类 方法 的 有 效 性 。 笔 者 所 设计 的 基于 主题 识别 
的 文档 聚 类 方法 为 科技 报告 的 语义 内 容 挖 气 、 知 识 服 
务 的 深度 开展 提供 了 方法 支撑 ,虽然 所 采用 的 实验 语 
料 是 基于 科技 报告 文本 所 开展 的 ,但 本 文 的 方法 应 用 
也 可 以 为 其 他 科技 文献 的 文本 挖 据 提供 一 定 的 借鉴 。 
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